智能论文笔记

You Only Need One Detector: Unified Object Detector for Different Modalities based on Vision Transformers

Xiaoke Shen , Zhujun Li , Jaime Canizales , Ioannis Stamos

分类：计算机视觉

2022-07-03

大多数系统都使用不同的模型来用于不同的模式，例如用于处理RGB图像的一种模型和一个用于深度图像的模型。同时，最近的一些作品发现，一个模式的相同模型可以在跨模态转移学习的帮助下用于另一种模式。在本文中，我们进一步发现，通过将视觉变压器与交叉/间模式传输学习一起使用，统一检测器在使用不同的模态作为输入时可以实现更好的性能。统一模型很有用，因为我们不需要维护机器人技术的单独模型或权重，因此它更有效。我们统一的机器人技术系统的一个应用程序场景可以是：如果没有任何模型体系结构和模型权重更新，机器人可以在夜间在白天和深度传感器中使用RGB摄像机或RGB摄像头和深度传感器平稳切换。 Sun RGB-D数据集的实验显示：我们的统一模型不仅有效，而且基于SunRGBD16类别的MAP50具有相似或更好的性能：与RGB进行比较，只有一个，我们的rgb稍差（52.3 $ \ to，to to to $ 51.9）。与点云相比，我们的性能相似（52.7 $ \至$ 52.8）;当使用这项工作中提出的新型模式混合方法时，我们的模型可以通过3.1（52.7 $ \至$ 55.8）的绝对改进获得明显更好的性能，与先前的最佳结果相比。代码（包括培训/推理日志和模型检查点）可用：\ url {https://github.com/liketheflower/yonod.git}

translated by 谷歌翻译

ISAACS: Iterative Soft Adversarial Actor-Critic for Safety

Kai-Chieh Hsu , Duy Phuong Nguyen , Jaime Fernández Fisac

分类：机器学习 | 机器人

2022-12-06

The deployment of robots in uncontrolled environments requires them to operate robustly under previously unseen scenarios, like irregular terrain and wind conditions. Unfortunately, while rigorous safety frameworks from robust optimal control theory scale poorly to high-dimensional nonlinear dynamics, control policies computed by more tractable "deep" methods lack guarantees and tend to exhibit little robustness to uncertain operating conditions. This work introduces a novel approach enabling scalable synthesis of robust safety-preserving controllers for robotic systems with general nonlinear dynamics subject to bounded modeling error by combining game-theoretic safety analysis with adversarial reinforcement learning in simulation. Following a soft actor-critic scheme, a safety-seeking fallback policy is co-trained with an adversarial "disturbance" agent that aims to invoke the worst-case realization of model error and training-to-deployment discrepancy allowed by the designer's uncertainty. While the learned control policy does not intrinsically guarantee safety, it is used to construct a real-time safety filter (or shield) with robust safety guarantees based on forward reachability rollouts. This shield can be used in conjunction with a safety-agnostic control policy, precluding any task-driven actions that could result in loss of safety. We evaluate our learning-based safety approach in a 5D race car simulator, compare the learned safety policy to the numerically obtained optimal solution, and empirically validate the robust safety guarantee of our proposed safety shield against worst-case model discrepancy.

translated by 谷歌翻译

Look Ma, Only 400 Samples! Revisiting the Effectiveness of Automatic N-Gram Rule Generation for Spelling Normalization in Filipino

Lorenzo Jaime Yu Flores , Dragomir Radev

分类：自然语言处理

2022-10-06

With 84.75 million Filipinos online, the ability for models to process online text is crucial for developing Filipino NLP applications. To this end, spelling correction is a crucial preprocessing step for downstream processing. However, the lack of data prevents the use of language models for this task. In this paper, we propose an N-Gram + Damerau Levenshtein distance model with automatic rule extraction. We train the model on 300 samples, and show that despite limited training data, it achieves good performance and outperforms other deep learning approaches in terms of accuracy and edit distance. Moreover, the model (1) requires little compute power, (2) trains in little time, thus allowing for retraining, and (3) is easily interpretable, allowing for direct troubleshooting, highlighting the success of traditional approaches over more complex deep learning models in settings where data is unavailable.

translated by 谷歌翻译

Towards self-attention based navigation in the real world

Jaime Ruiz-Serra , Jack White , Stephen Petrie , Tatiana Kameneva , Chris McCarthy

分类：机器人 | 计算机视觉 | 机器学习 | 神经与进化计算

2022-09-15

基于视觉的导航需要处理复杂的信息以做出以任务为导向的决策。应用包括自动驾驶机器人，自动驾驶汽车以及对人类的辅助愿景。该过程中的关键要素之一是在像素空间中提取和选择相关特征，以便基于操作选择，适合哪种机器学习技术。但是，在模拟中接受培训的深度强化学习代理人在现实世界中部署在现实世界中通常会表现出不满意的结果，这是因为感知差异称为$ \ textit {现实gap} $。尚未探索以弥合这一差距的方法是自我注意力。在本文中，我们（1）对基于3D环境的基于自我注意力的导航进行系统探索，并从不同的超参数集中观察到的行为，包括它们的概括能力；（2）目前的策略来提高代理的概括能力和导航行为；（3）展示在模拟中训练的模型如何能够实时处理现实世界图像。据我们所知，这是使用少于4000个参数成功导航3D动作空间的基于自我注意力的代理的首次演示。

translated by 谷歌翻译

SIRA: Relightable Avatars from a Single Image

Pol Caselles , Eduard Ramon , Jaime Garcia , Xavier Giro-i-Nieto , Francesc Moreno-Noguer , Gil Triginer

分类：计算机视觉 | 人工智能

2022-09-07

从单个图像中恢复人头的几何形状，同时对材料和照明进行分解是一个严重不良的问题，需要事先解决。基于3D形态模型（3DMM）及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是，3DMM的表现力受到限制，它们通常会产生过度平滑和身份敏捷的3D形状，仅限于面部区域。最近，使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状，材料和照明。但是，这些方法需要几十个输入图像。在本文中，我们介绍了Sira，该方法从单个图像中，从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型，这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明，Sira获得了最新的状态导致3D头重建，同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外，我们的重建适合基于物理的外观编辑和头部模型重新构建。

translated by 谷歌翻译

Extend and Explain: Interpreting Very Long Language Models

Joel Stremmel , Brian L. Hill , Jeffrey Hertzberg , Jaime Murillo , Llewelyn Allotey , Eran Halperin

分类：自然语言处理

2022-09-02

尽管变压器语言模型（LMS）是信息提取的最新技术，但长文本引入了需要次优的预处理步骤或替代模型体系结构的计算挑战。稀疏注意的LMS可以代表更长的序列，克服性能障碍。但是，目前尚不清楚如何解释这些模型的预测，因为并非所有令牌都在自我发项层中相互参加，而在运行时，长序列对可解释性算法提出了计算挑战，而当运行时取决于文档长度。这些挑战在文档可能很长的医学环境中是严重的，机器学习（ML）模型必须是审核和值得信赖的。我们介绍了一种新颖的蒙版抽样程序（MSP），以识别有助于预测的文本块，将MSP应用于预测医学文本诊断的背景下，并通过两位临床医生的盲目审查来验证我们的方法。我们的方法比以前的最先进的临床信息块高约1.7倍，速度更快100倍，并且可用于生成重要的短语对。 MSP特别适合长LMS，但可以应用于任何文本分类器。我们提供了MSP的一般实施。

translated by 谷歌翻译

Explainable Biometrics in the Age of Deep Learning

Pedro C. Neto , Tiago Gonçalves , João Ribeiro Pinto , Wilson Silva , Ana F. Sequeira , Arun Ross , Jaime S. Cardoso

分类：计算机视觉

2022-08-19

能够分析和量化人体或行为特征的系统（称为生物识别系统）正在使用和应用变异性增长。由于其从手工制作的功能和传统的机器学习转变为深度学习和自动特征提取，因此生物识别系统的性能增加到了出色的价值。尽管如此，这种快速进步的成本仍然尚不清楚。由于其不透明度，深层神经网络很难理解和分析，因此，由错误动机动机动机的隐藏能力或决定是潜在的风险。研究人员已经开始将注意力集中在理解深度神经网络及其预测的解释上。在本文中，我们根据47篇论文的研究提供了可解释生物识别技术的当前状态，并全面讨论了该领域的发展方向。

translated by 谷歌翻译

OrthoMAD: Morphing Attack Detection Through Orthogonal Identity Disentanglement

Pedro C. Neto , Tiago Gonçalves , Marco Huber , Naser Damer , Ana F. Sequeira , Jaime S. Cardoso

分类：计算机视觉

2022-08-16

变形攻击是不断影响深度识别系统的众多威胁之一。它包括从不同个体中选择两张面，并将它们融合到包含两者的身份信息的最终图像中。在这项工作中，我们提出了一个新颖的正规化术语，该术语考虑了两者中存在的身份信息，并促进了两个正交潜在媒介的创建。我们在FRLL数据集中评估了我们提出的方法（Orthomad），并在五个不同的数据集中培训时评估了模型的性能。我们以小的RESNET-18为骨干，我们实现了大多数实验的最新结果，而竞争性则在其他实验中结果。本文的代码将公开可用。

translated by 谷歌翻译

SYN-MAD 2022: Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data

Marco Huber , Fadi Boutros , Anh Thi Luu , Kiran Raja , Raghavendra Ramachandra , Naser Damer , Pedro C. Neto , Tiago Gonçalves , Ana F. Sequeira , Jaime S. Cardoso

分类：计算机视觉

2022-08-15

本文介绍了基于2022年国际生物识别技术联合会议（IJCB 2022）举行的基于隐私感知合成训练数据（SYN-MAD）的面部变形攻击检测的摘要。该竞赛吸引了来自学术界和行业的12个参与团队，并在11个不同的国家 /地区举行。最后，参与团队提交了七个有效的意见书，并由组织者进行评估。竞争是为了介绍和吸引解决方案的解决方案，这些解决方案涉及检测面部变形攻击的同时，同时出于道德和法律原因保护人们的隐私。为了确保这一点，培训数据仅限于组织者提供的合成数据。提交的解决方案提出了创新，导致在许多实验环境中表现优于所考虑的基线。评估基准现在可在以下网址获得：https：//github.com/marcohuber/syn-mad-2022。

translated by 谷歌翻译

Frouros: A Python library for drift detection in Machine Learning problems

Jaime Céspedes Sisniega , Álvaro López García

分类：机器学习

2022-08-14

弗洛罗斯（Frolos）是一个python库，能够检测机器学习问题的漂移。它提供了用于漂移检测的经典和较新的算法的组合：受到监督和无监督，以及一些能够以半监督的方式行动的能力。我们设计了它的目的是与Scikit-Learn库轻松集成，并实现相同的应用程序编程界面。图书馆是根据一组最佳开发和持续整合实践开发的，以确保易于维护和可扩展性。源代码可在https://github.com/ifca/frouros上获得。

translated by 谷歌翻译